ElevenLabsは2026年1月20日10時30分、文字起こしの精度基準を刷新する最新STT(音声認識)モデル「Scribe V2」を発表しました。APIと「Speech to Text」「Studio」などのプロダクトから提供し、90以上の言語に対応します。
狙いは、長尺・複雑な音声でも精度と安定性を維持し、字幕・キャプション制作や大量文字起こしで発生しやすい編集・校正のコストや手戻りを減らすことです。従来は話者の多さ、話速の変化、沈黙、固有名詞や専門用語、個人情報確認が精度低下時の負担増要因でした。
Scribe V2はKeyterm Promptingで最大100の単語・フレーズを指定でき、固有名詞の聞き取りを補助します。Entity Detectionでは個人情報や決済情報、医療データなどを最大56カテゴリで自動検知し、話者分離、単語レベルのタイムスタンプ、音イベントタグにも対応します。
同社は2022年設立で、プラットフォームはFortune 500企業の75%以上を含む数千社が利用しています。今後は高精度な文字起こしの安定運用が、業務の検索・編集可能な音声アーカイブ化や、多言語コンテンツ制作・ローカライズの効率化を後押しするとみられます。
【関連リンク】
公式ブログ: https://elevenlabs.io/blog/introducing-scribe-v2
プロダクトページ(Speech to Text): https://elevenlabs.io/speech-to-text
ドキュメント(Speech to Text API): https://elevenlabs.io/docs/overview/capabilities/speech-to-text
